Real-world robotic grasping can be done robustly if a complete 3D Point Cloud Data (PCD) of an object is available. However, in practice, PCDs are often incomplete when objects are viewed from few and sparse viewpoints before the grasping action, leading to the generation of wrong or inaccurate grasp poses. We propose a novel grasping strategy, named 3DSGrasp, that predicts the missing geometry from the partial PCD to produce reliable grasp poses. Our proposed PCD completion network is a Transformer-based encoder-decoder network with an Offset-Attention layer. Our network is inherently invariant to the object pose and point's permutation, which generates PCDs that are geometrically consistent and completed properly. Experiments on a wide range of partial PCD show that 3DSGrasp outperforms the best state-of-the-art method on PCD completion tasks and largely improves the grasping success rate in real-world scenarios. The code and dataset will be made available upon acceptance.
translated by 谷歌翻译
知识图(kgs)已被证明是构建数据的可靠方法。他们可以提供有关文化遗产收藏的丰富情境信息。但是,文化遗产库库远非完整。他们通常会缺少重要的属性,例如地理位置,尤其是对于雕塑,移动或室内实体,例如绘画。在本文中,我们首先提出了一个框架,用于从各种数据源及其连接的多跳知识中汲取有关有形文化遗产实体的知识。其次,我们提出了一个多视图学习模型,用于估计给定的文化遗产实体之间的相对距离,该模型基于实体的地理和知识联系。
translated by 谷歌翻译
近年来,人们对建立面孔和名人声音之间的关联的兴趣越来越大,从而利用YouTube的视听信息。先前的工作采用公制学习方法来学习适合关联匹配和验证任务的嵌入式空间。尽管显示出一些进展,但由于依赖距离依赖的边缘参数,运行时训练的复杂性差以及对精心制作的负面采矿程序的依赖,这种制剂是限制性的。在这项工作中,我们假设一个丰富的表示形式以及有效但有效的监督对于实现面部voice关联任务的歧视性关节嵌入空间很重要。为此,我们提出了一种轻巧的插件机制,该机制利用这两种方式中的互补线索以通过正交性约束来根据其身份标签形成丰富的融合杂物并将其簇形成。我们将我们提出的机制作为融合和正交投影(FOP)创造,并在两个流网络中实例化。在Voxceleb1和Mav-Celeb数据集上评估了总体结果框架,其中包括许多任务,包括跨模式验证和匹配。结果表明,我们的方法对当前的最新方法有利,而我们提出的监督表述比当代方法所采用的方法更有效。此外,我们还利用跨模式验证和匹配任务来分析多种语言对面部声音协会的影响。代码可用:\ url {https://github.com/msaadsaeed/fop}
translated by 谷歌翻译
这项工作对最近的努力进行了系统的综述(自2010年以来),旨在自动分析面对面共同关联的人类社交互动中显示的非语言提示。专注于非语言提示的主要原因是,这些是社会和心理现象的物理,可检测到的痕迹。因此,检测和理解非语言提示至少在一定程度上意味着检测和理解社会和心理现象。所涵盖的主题分为三个:a)建模社会特征,例如领导力,主导,人格特质,b)社会角色认可和社会关系检测以及c)群体凝聚力,同情,rapport和so的互动动态分析向前。我们针对共同的相互作用,其中相互作用的人永远是人类。该调查涵盖了各种各样的环境和场景,包括独立的互动,会议,室内和室外社交交流,二元对话以及人群动态。对于他们每个人,调查都考虑了非语言提示分析的三个主要要素,即数据,传感方法和计算方法。目的是突出显示过去十年的主要进步,指出现有的限制并概述未来的方向。
translated by 谷歌翻译
相机的估计与一组图像相关联的估计通常取决于图像之间的特征匹配。相比之下,我们是第一个通过使用对象区域来指导姿势估计问题而不是显式语义对象检测来应对这一挑战的人。我们提出了姿势炼油机网络(PosErnet),一个轻量级的图形神经网络,以完善近似的成对相对摄像头姿势。posernet利用对象区域之间的关联(简洁地表示为边界框),跨越了多个视图到全球完善的稀疏连接的视图图。我们在不同尺寸的图表上评估了7个尺寸的数据集,并展示了该过程如何有益于基于优化的运动平均算法,从而相对于基于边界框获得的初始估计,将旋转的中值误差提高了62度。代码和数据可在https://github.com/iit-pavis/posernet上找到。
translated by 谷歌翻译
由于难以匹配相邻零件,因此解决难题是一个组合挑战。取而代之的是,我们从所有碎片中推断出一个心理图像,然后可以将其与避免爆炸的组合相匹配。利用生成对抗方法的进步,我们学习如何重建图像给定一组无序的零件,从而使模型可以学习一个关节嵌入空间,以将每个零件的编码与生成器的裁剪层匹配。因此,我们将问题作为R@1检索任务将其构架,然后使用可区分的匈牙利注意力解决线性分配,从而使过程端到端。这样一来,我们的模型是拼图尺寸不可知论,与先前的深度学习方法相反。我们在两个新的大规模数据集上进行了评估,其中我们的模型与深度学习方法相当,同时将其推广到多个拼图大小。
translated by 谷歌翻译
零拍学习方法依赖于固定的视觉和语义嵌入,从独立视觉和语言模型中提取,都是预先培训的其他大型任务。这是当前零拍摄学习框架的弱点,因为这种不相交的嵌入不能充分将可视化和文本信息与其共享语义内容充分相关联。因此,我们建议通过在代理任务上计算带有双流网络的联合图像和文本模型来学习语义接地和丰富的视觉信息。为了改善由属性提供的图像和文本表示之间的这种对齐,我们利用辅助标题提供接地的语义信息。我们的方法,在若干基准数据集中评估了零射击学习的关节嵌入,提高了标准(APY $ + 1.6 $ \%的现有最先进方法的性能($ + 2.6 \%$在FLO)上)和AWA $ 2 $ + 2.1 \%$ 2 $ 2 $ 2美元,幼崽+ 2.2 \%$ 2。幼崽)零射击识别。
translated by 谷歌翻译
我们研究了脸部和声音之间学习协会的问题,这是最近对计算机视觉界的兴趣。现有作品采用成对或三重态损耗配方,以学习适用于相关匹配和验证任务的嵌入空间。尽管展示了一些进展,但这种损失配方由于依赖差距利润率参数,运行时训练复杂性差,以及依赖于仔细制作的负挖掘程序而受到限制。在这项工作中,我们假设具有有效且有效的监督耦合的富集的特征表示是实现改进的面部语音关联的鉴别性关节嵌入空间。为此,我们提出了一种轻量级,即插即用机制,可利用两种方式的互补线程来形成丰富的融合嵌入并通过正交限制基于其身份标签进行群集。我们将我们提出的机制硬币作为融合和正交投影(FOP),并在两条流管道中实例化。在具有多种任务的大规模VOXECEB数据集上评估总体产生的框架,包括跨模型验证和匹配。结果表明,我们的方法对目前的最先进的方法进行了有利,我们拟议的监督制定比当代方法所采用的制定更有效和效率。
translated by 谷歌翻译
在本文中,我们专注于在线学习主动视觉在未知室内环境中的对象的搜索(AVS)的最优策略问题。我们建议POMP++,规划战略,介绍了经典的部分可观察蒙特卡洛规划(POMCP)框架之上的新制剂,允许免费培训,在线政策在未知的环境中学习。我们提出了一个新的信仰振兴战略,允许使用POMCP与动态扩展状态空间来解决在线生成平面地图的。我们评估我们在两个公共标准数据集的方法,AVD由是从真正的3D场景渲染扫描真正的机器人平台和人居ObjectNav收购,用>10%,比国家的the-改善达到最佳的成功率技术方法。
translated by 谷歌翻译
Large language models (LLMs) have demonstrated strong performance in zero-shot reasoning tasks, including abductive reasoning. This is reflected in their ability to perform well on current benchmarks in this area. However, to truly test the limits of LLMs in abductive reasoning, a more challenging benchmark is needed. In this paper, we present such a benchmark, consisting of 191 long-form mystery stories, each approximately 1200 words in length and presented in the form of detective puzzles. Each puzzle includes a multiple-choice question for evaluation sourced from the "5 Minute Mystery" platform. Our results show that state-of-the-art GPT models perform significantly worse than human solvers on this benchmark, with an accuracy of 28\% compared to 47\% for humans. This indicates that there is still a significant gap in the abductive reasoning abilities of LLMs and highlights the need for further research in this area. Our work provides a challenging benchmark for future studies on reasoning in language models and contributes to a better understanding of the limits of LLMs' abilities.
translated by 谷歌翻译